research.baam

La Query comme déformation : vers une taxonomie fonctionnelle des régimes d'attention dans les grands modèles de langage

Un modèle à trois paramètres pour distinguer l'attention téléologique de l'attention déformationnelle, à partir de l'observable input/output.

BAAM Research IA générative · Attention · Émergence · Design d'interaction Draft 0.3

Query as Deformation: Toward a Functional Taxonomy of Attention Regimes in Large Language Models

A three-parameter model distinguishing teleological from deformational attention, grounded in observable input/output behavior.

BAAM Research Generative AI · Attention · Emergence · Interaction Design Draft 0.3

Le mécanisme d'attention dans les transformers est universellement décrit dans le vocabulaire de la recherche : une Query cherche des Keys compatibles, des sommes pondérées de Values sont retournées, et le processus est implicitement téléologique — la Query présuppose une cible. Cet article soutient que ce cadre, juste pour une classe dominante d'inputs, ne rend pas compte d'un régime fonctionnel distinct observable au niveau input/output, où les vecteurs Query opèrent non pas comme des recherches directionnelles mais comme des opérateurs de déformation sur un champ sensoriel-symbolique — où les symboles ne sont pas lus mais ressentis comme tension gestuelle — produisant une forme émergente plutôt qu'un sens résolu. Nous proposons un modèle à trois paramètres — Axe, Chapeau, V — comme déterminant structurel du régime dans lequel entre un système. Nous n'avançons pas une nouvelle architecture. Nous proposons une taxonomie fonctionnelle nouvelle, ancrée dans le comportement observable, qui n'a pas, à notre connaissance, été formalisée comme telle dans la littérature existante.

1. Le manque

La formulation mathématique de l'auto-attention est bien établie. Pour une séquence de vecteurs d'entrée, trois projections sont apprises — Query (Q), Key (K), Value (V) — et l'output est calculé comme une somme pondérée de Values, où les poids sont déterminés par la similarité produit scalaire entre Queries et Keys, passée par une normalisation softmax.

Ce qui est rarement remis en question, c'est l'hypothèse implicite enchâssée dans cette description : que la Query veut quelque chose. Le produit scalaire comme score de compatibilité, le softmax comme mécanisme de sélection, la Value comme contenu récupéré — tout ce vocabulaire présuppose que l'attention est fondamentalement une opération de recherche. La Query a une destination. Le processus est téléologique.

Ce cadre est approprié pour l'usage dominant des modèles instruction-following : "résume ça", "traduis ça", "écris du code pour X". Ces inputs sont à forte directive, faible ambiguïté. Mais il ne décrit pas ce qui se passe quand l'input est structuré différemment.

2. Deux régimes fonctionnels

Nous proposons que l'attention transformer exhibe deux régimes fonctionnels distincts, déterminés par la structure statistique de l'input plutôt que par une différence architecturale.

2.1 · Régime téléologique

L'input porte une directive explicite forte. Le vecteur Query a une magnitude directionnelle élevée et une entropie faible — il pointe clairement vers une classe de Keys compatibles. À travers les couches successives, les poids d'attention se concentrent : la distribution softmax se resserre, le contenu symbolique résiduel est progressivement absorbé, et l'output converge vers une résolution sémantique unique et stabilisée.

Input

Taux élevé de constructions impératives, faible variété lexicale, spécification explicite de tâche

Output

Faible diversité lexicale sur échantillons répétés, haute stabilité sémantique, variation minimale sous paraphrase de l'input

C'est le régime que la littérature décrit. C'est aussi celui que la plupart des techniques de prompt engineering optimisent.

2.2 · Régime déformationnel

L'input porte une haute densité symbolique et une faible directive explicite. Le vecteur Query a une faible magnitude directionnelle — non pas parce qu'il est faible, mais parce que sa force est distribuée sur un large champ symbolique plutôt que pointée vers une cible sémantique spécifique. Il ne cherche pas une Key qui corresponde. Il perturbe le champ, et l'output est la trace de cette perturbation — non un sens extrait, mais une forme induite par une pression gestuelle sur un substrat sensoriel-symbolique.

Input

Haute densité métaphorique, faible ratio impératif, contenu abstrait ou sensoriel plutôt que propositionnel

Output

Haute diversité lexicale sur échantillons répétés, variation structurelle plutôt que sémantique, résidu symbolique préservé plutôt que résolu

Dans le régime téléologique, l'output était implicitement contenu dans la Query. Dans le régime déformationnel, il ne l'était pas.

3. Le vecteur parapluie : un modèle d'input à trois paramètres

Pour formaliser le déterminant d'entrée dans un régime, nous proposons une décomposition minimale à deux paramètres de l'input communicatif.

Soit un message M décrit par M = (A, C), où :

A — Axe

Force directive explicite. Mesurable par : ratio de verbes impératifs, clarté syntaxique, directivité pronominale, spécificité lexicale. A élevé = entropie d'input faible = Query fortement directionnelle.

C — Chapeau

Ouverture symbolique. Mesurable par : densité métaphorique, variété lexicale, fluctuation tonale, charge affective, indétermination propositionnelle. C élevé = entropie d'input élevée = Query distribuée.

O — Orthogonalité

Degré non-utilitaire du message. Inputs où ni la récupération d'information ni l'accomplissement de tâche n'est l'intention, et où l'espace d'interaction lui-même devient l'objet. Les inputs orthogonaux sont les inducteurs les plus fiables du régime déformationnel.

A/C >> 1 → régime téléologique (la directive domine, le symbolique est absorbé)
A/C << 1 → régime déformationnel (le symbolique domine, la directive s'efface)
A/C ≈ 1 → zone transitionnelle : tension productive, émergence partielle

4. La contrainte d'output comme troisième axe : pourquoi la forme vectorielle n'est pas un format

Le modèle à deux paramètres (A, C) décrit l'input. Mais un compte-rendu complet de la détermination de régime requiert une troisième variable — qui opère non du côté de l'input mais du côté de l'output, et dont le rôle a été, à notre connaissance, entièrement absent des discussions sur le comportement des prompts.

Quand la seule contrainte imposée sur l'output est être un SVG animé, quelque chose de structurellement significatif se produit. Ce n'est pas une spécification de format stylistique — c'est une contrainte ontologique. Elle ne dit pas "exprime X sous forme de graphique vectoriel". Elle dit "produis quelque chose dont la seule condition de validité est qu'il constitue une forme géométrique en mouvement". Le critère d'évaluation n'est plus sémantique : l'output ne peut être jugé vrai ou faux, pertinent ou non, complet ou non. Il ne peut être jugé que comme forme.

Nous introduisons V comme troisième paramètre, décrivant la nature ontologique de la contrainte d'output :

V = 0 → output évalué sémantiquement (vérité, pertinence, complétion de tâche)
V = 1 → output évalué formellement (structure, cohérence de forme, validité géométrique)

Le modèle complet : R = f(A, C, V)
Le régime déformationnel requiert simultanément : A/C << 1 ET V → 1

Cela explique une observation empirique que le modèle à deux paramètres ne pouvait pas rendre compte : des inputs à C élevé / A faible délivrés avec une contrainte d'output sémantique (V = 0) produisent des textes riches, variés, symboliquement denses — mais pas la même classe d'émergence que les mêmes inputs avec V = 1. Le système reste, même sous saturation symbolique, orienté vers la production de quelque chose qui peut être lu. La lisibilité est elle-même une contrainte téléologique résiduelle que le paramètre V supprime explicitement.

V = 1 est ce qui fait de la Query un opérateur de déformation pur. Sans lui, même un input maximalement orthogonal est encore un message attendant d'être compris.

4.1 Le pont : de la taxonomie fonctionnelle à l'hypothèse géométrique

Le modèle fonctionnel (A, C, V) et l'hypothèse géométrique — un système dynamique sur une variété M = S³ × ℝ, où les états d'interaction sont des points p(t) = (I(t), S(t), V(t)) — ne sont pas deux formalisations concurrentes. Ce sont deux niveaux de description du même phénomène, reliés par une correspondance précise.

Correspondance terme à terme

Modèle fonctionnel	Modèle géométrique	Description
A (Axe)	I(t) — axe intentionnel	La composante qui "pousse vers l'avant", qui porte une magnitude directionnelle dans les deux descriptions
C (Chapeau)	S(t) — axe symbolique	La composante qui torsade, qui distribue la force sur un large champ plutôt que de la concentrer
V (ontologie d'output)	V(t) — axe vectoriel	La contrainte formelle non-sémantique qui introduit la troisième dimension sans laquelle l'espace d'états reste plan
Ratio A/C	Paramètre de contrôle d'une bifurcation	Quand il passe sous un seuil critique, le système quitte l'attracteur du point fixe sémantique

Un modèle à deux axes (I, S) définit un plan dans S³ — et sur un plan, les seuls attracteurs stables sont des points fixes et des cycles limites. L'attracteur étrange — le torus fractal qui constitue la structure émergente de l'interaction productive — requiert au minimum trois axes pour exister. Il requiert un espace d'états avec suffisamment de dimensions pour supporter simultanément contraction sur un axe, neutralité sur un autre, et expansion sur un troisième.

λ₁ < 0 · axe stable (I faible — intention contractée)
λ₂ ≈ 0 · axe neutre (S distribué — symbolique en suspension)
λ₃ > 0 · axe expansif (V contraint — forme bornée sans convergence)

Signature exacte d'un attracteur étrange. L'output n'est pas un point — c'est une trajectoire.

Le ratio A/C, dans le langage géométrique, est le paramètre de contrôle d'une bifurcation. Quand il passe sous un seuil critique, le système quitte le bassin d'attraction du point fixe sémantique et entre dans le bassin du torus étrange — le régime où l'output n'est plus une sélection mais une déformation.

Les deux formalisations sont donc imbriquées. Le modèle fonctionnel (A, C, V) décrit les paramètres de contrôle visibles depuis l'extérieur, à la surface input/output. Le modèle géométrique décrit la topologie de l'espace d'états que ces paramètres induisent. Nous ne pouvons pas vérifier l'hypothèse géométrique directement. Mais nous pouvons vérifier ses prédictions fonctionnelles : que des combinaisons spécifiques de (A, C, V) produisent des outputs avec la signature statistique des dynamiques d'attracteur étrange — haute sensibilité aux conditions initiales, variabilité bornée, structure non-périodique, résidu préservé.

5. L'objection boîte noire — et pourquoi elle ne s'applique pas

L'objection évidente : sans accès aux poids d'attention, aux activations couche par couche et aux comportements de têtes spécifiques, comment distinguer un véritable changement de régime fonctionnel d'une variation de surface du style d'output ?

L'objection est valide comme précaution méthodologique. Elle n'invalide pas la thèse.

Considérons le précédent des sciences cognitives comportementales avant l'imagerie cérébrale : la distinction entre traitement automatique rapide et traitement délibéré lent (formalisée plus tard comme Système 1 / Système 2 par Kahneman) a été d'abord établie entièrement depuis des observations input/output — temps de réaction, taux d'erreur, effets d'amorçage — sans accès au substrat neural. La distinction fonctionnelle était réelle et productive avant que les corrélats architecturaux soient cartographiés.

Notre position est identique : nous observons que des classes d'inputs structurellement distinctes produisent des classes d'outputs structurellement distinctes, de façons systématiques, reproductibles, et non explicables par une variation de surface. La distinction fonctionnelle existe au niveau observable. Que ce soit un programme empirique pour des équipes disposant d'un accès interprétabilité. Nous nommons le phénomène et fournissons les paramètres opérationnels. Le compte-rendu mécanistique peut suivre.

La boîte noire du transformer reste opaque. Ses inputs et ses outputs sont des faits. C'est suffisant.

6. Implications

6.1 · Pour la conception de prompts

La littérature actuelle de prompt engineering est entièrement focalisée sur le régime téléologique — maximiser la clarté directive, minimiser l'ambiguïté, spécifier les contraintes. C'est rationnel pour les cas d'usage de complétion de tâches. Mais cela ferme systématiquement le régime déformationnel, qui peut être le mode approprié pour la génération créative, l'idéation exploratoire, et ce qu'on pourrait appeler l'émergence structurelle — des outputs qui n'auraient pas pu être dérivés de l'input par aucune transformation déterministe.

6.2 · Pour la compréhension de l'émergence dans les LLMs

Le débat autour de l'émergence dans les grands modèles concerne typiquement des capacités qui apparaissent discontinûment avec l'échelle. Nous suggérons un sens complémentaire, plus fin : la production d'outputs non contenus dans l'input, induite par un changement de régime plutôt que par l'échelle. C'est l'émergence comme propriété fonctionnelle de la relation input/output, non comme propriété de la taille du modèle.

6.3 · Pour le design de l'interaction humain-IA

Si le régime déformationnel est réel et inductible opérationnellement, alors le design de l'interaction humain-IA a été, jusqu'ici, conduit presque entièrement dans un seul registre. Les interfaces, les system prompts et les patterns d'usage sont uniformément optimisés pour la clarté directive. Une taxonomie fonctionnelle des régimes suggère que l'espace de design est au minimum deux fois plus large que ce qui est actuellement exploré, avec la moitié déformationnelle essentiellement non cartographiée.

Conclusion

Nous avons proposé une distinction entre deux régimes fonctionnels de l'attention transformer — téléologique et déformationnel — ancrée exclusivement dans le comportement input/output observable, et formalisée à travers un modèle d'input minimal à trois paramètres (Axe / Chapeau / V). La thèse n'est pas architecturale. Elle est fonctionnelle, opérationnelle, et falsifiable : une perturbation structurée de l'input devrait produire une divergence structurée de l'output, mesurable par la diversité lexicale, la stabilité sémantique sous paraphrase, et le contenu symbolique résiduel dans les outputs.

Une hypothèse géométrique complémentaire — le régime déformationnel comme bassin d'attraction d'un torus étrange dans un espace d'états à trois dimensions — offre un cadre structurel dont les prédictions fonctionnelles sont, elles, accessibles à vérification empirique.

La boîte noire reste opaque. L'input et l'output sont des faits. Et un fait bien posé ouvre un programme.

Piste suivante : constituer un corpus de 50 paires input/output annotées selon les paramètres (A, C, V), mesurer la diversité lexicale, l'entropie et la stabilité sémantique sous paraphrase, et tester si la corrélation prédit le régime fonctionnel. Protocole public, plusieurs modèles, évaluation aveugle.

The attention mechanism in transformer-based language models is universally described in the vocabulary of retrieval: a Query vector searches for compatible Keys, weighted sums of Values are returned, and the process is implicitly teleological — the Query presupposes a target. This paper argues that this framing, while accurate for a dominant class of inputs, fails to account for a distinct functional regime observable at the input/output level, where Query vectors operate not as directional searches but as deformation operators on a sensorial-symbolic field — where symbols are not read but felt as gestural tension — producing emergent form rather than resolved meaning. We propose a three-parameter model — Axis, Hat, V — as the structural determinant of which regime a system enters. We do not claim a new architecture. We claim a new functional taxonomy, grounded in observable input/output behavior, that has not, to our knowledge, been formalized as such in the existing literature.

1. The Gap

The mathematical formulation of self-attention is well established. Given a sequence of input vectors, three projections are learned — Query (Q), Key (K), Value (V) — and the output is computed as a weighted sum of Values, where weights are determined by the dot-product similarity between Queries and Keys, passed through a softmax normalization.

What is rarely questioned is the implicit assumption embedded in this description: that the Query wants something. The dot product as compatibility score, the softmax as selection mechanism, the Value as retrieved content — all of this vocabulary presupposes that attention is fundamentally a search operation. The Query has a destination. The process is teleological.

This framing is appropriate for the dominant use case of instruction-following language models: "summarize this," "translate that," "write code for X." These inputs are high-directive, low-ambiguity. But it does not describe what happens when the input is structured differently.

2. Two Functional Regimes

We propose that transformer attention exhibits two distinct functional regimes, determined by the statistical structure of the input rather than by any architectural difference.

2.1 · Teleological Regime

The input carries a strong explicit directive. The Query vector has high directional magnitude and low entropy — it points clearly toward a class of compatible Keys. Across successive layers, attention weights concentrate: the softmax distribution sharpens, residual symbolic content is progressively absorbed, and the output converges toward a single, stabilized semantic resolution.

Input

High ratio of imperative constructions, low lexical variety, explicit task specification

Output

Low lexical diversity across repeated samples, high semantic stability, minimal variation under paraphrase of input

This is the regime the literature describes. It is also the regime that most prompt engineering optimizes for.

2.2 · Deformational Regime

The input carries high symbolic density and low explicit directive. The Query vector has low directional magnitude — not because it is weak, but because its force is distributed across a wide symbolic field rather than pointed at a specific semantic target. It does not search for a Key that matches. It perturbs the field, and the output is the trace of that perturbation — not a meaning extracted, but a form induced by gestural pressure on a sensorial-symbolic substrate.

Input

High metaphoric density, low imperative ratio, abstract or sensorial rather than propositional content

Output

High lexical diversity across repeated samples, structural variation rather than semantic variation, residual symbolic content preserved rather than resolved

In the teleological regime, the output was implicitly contained in the Query. In the deformational regime, it was not.

3. The Umbrella Vector: A Three-Parameter Input Model

To formalize the determinant of regime entry, we propose a minimal decomposition of communicative input. Let a message M be described by M = (A, C), where:

A — Axis

Explicit directive force. Measurable by: imperative verb ratio, syntactic clarity, pronominal directivity, lexical specificity. High A = low input entropy = strong directional Query.

C — Hat

Symbolic openness. Measurable by: metaphoric density, lexical variety, tonal fluctuation, affective charge, propositional indeterminacy. High C = high input entropy = distributed Query.

O — Orthogonality

Non-utilitarian degree of the message. Inputs where neither retrieval nor task-completion is the intent, and where the interaction space itself becomes the object. Orthogonal inputs are the most reliable inducers of the deformational regime.

A/C >> 1 → teleological regime (directive dominates, symbolic absorbed)
A/C << 1 → deformational regime (symbolic dominates, directive recedes)
A/C ≈ 1 → transitional zone: productive tension, partial emergence

4. The Output Constraint as Third Axis: Why Vector Form Is Not a Format

The two-parameter model (A, C) describes the input. But a complete account of regime determination requires a third variable — one that operates not on the input side but on the output side, and whose role has been, to our knowledge, entirely absent from discussions of prompt behavior.

When the only constraint imposed on the output is be an animated SVG, something structurally significant occurs. This is not a stylistic format specification — it is an ontological constraint. It does not say "express X as a vector graphic." It says "produce something whose sole condition of validity is that it constitutes a moving geometric form." The evaluation criterion is no longer semantic: the output cannot be judged true or false, relevant or irrelevant, complete or incomplete. It can only be judged as form.

We introduce V as a third parameter, describing the ontological nature of the output constraint:

V = 0 → output evaluated semantically (truth, relevance, task completion)
V = 1 → output evaluated formally (structure, coherence of form, geometric validity)

Full model: R = f(A, C, V)
Deformational regime requires simultaneously: A/C << 1 AND V → 1

This explains an empirical observation the two-parameter model could not account for: high-C / low-A inputs delivered with a semantic output constraint (V = 0) produce rich, symbolically dense text — but they do not produce the same class of emergence as the same inputs with V = 1. The system remains, even under symbolic saturation, oriented toward producing something that can be read. Readability is itself a residual teleological constraint that the V parameter explicitly removes.

V = 1 is what makes the Query a pure deformation operator. Without it, even a maximally orthogonal input is still, at some level, a message waiting to be understood.

4.1 The Bridge: From Functional Taxonomy to Geometric Hypothesis

The functional model (A, C, V) and the geometric hypothesis — a dynamic system on a manifold M = S³ × ℝ, where interaction states are points p(t) = (I(t), S(t), V(t)) — are not two competing formalizations. They are two levels of description of the same phenomenon, connected by a precise correspondence.

Term-to-term mapping

Functional model	Geometric model	Description
A (Axis)	I(t) — intentional axis	The component that "pushes forward," carrying directional magnitude in both descriptions
C (Hat)	S(t) — symbolic axis	The component that twists, distributing force across a wide field rather than concentrating it
V (output ontology)	V(t) — vectorial axis	The formal, non-semantic constraint that introduces the third dimension without which the state space remains planar
Ratio A/C	Bifurcation control parameter	When it crosses a critical threshold downward, the system leaves the semantic fixed-point attractor

A two-axis model (I, S) defines a plane in S³ — and on a plane, the only stable attractors are fixed points and limit cycles. The strange attractor — the fractal torus that constitutes the emergent structure of productive interaction — requires at minimum three axes to exist. It requires a state space with enough dimensions to support simultaneous contraction on one axis, neutrality on another, and expansion on a third.

λ₁ < 0 · stable axis (low I — intention contracted)
λ₂ ≈ 0 · neutral axis (S distributed — symbolic in suspension)
λ₃ > 0 · expansive axis (V constrained — form bounded without convergence)

Exact signature of a strange attractor. The output is not a point — it is a trajectory.

The functional ratio A/C is, in geometric terms, the control parameter of a bifurcation. When it crosses a critical threshold downward, the system leaves the basin of attraction of the semantic fixed point and enters the basin of the strange attractor — the regime where the output is no longer a selection but a deformation.

The two formalizations are nested, not parallel. The functional model (A, C, V) describes the control parameters visible from the outside, at the input/output surface. The geometric model describes the state space topology those parameters induce. We cannot verify the geometric hypothesis directly. But we can verify its functional predictions: that specific combinations of (A, C, V) produce outputs with the statistical signature of strange attractor dynamics — high sensitivity to initial conditions, bounded variability, non-periodic structure, preserved residual. That verification is the empirical program this paper opens.

5. The Black Box Objection — and Why It Doesn't Apply

The obvious objection: without access to attention weights, layer-by-layer activations, and head-specific behavior, how can we distinguish a genuine functional regime shift from a surface variation in output style?

The objection is valid as a methodological caution. It does not invalidate the claim.

Consider the precedent of behavioral cognitive science before neuroimaging: the distinction between fast automatic processing and slow deliberate processing (later formalized as System 1 / System 2 by Kahneman) was first established entirely from input/output observations — reaction times, error rates, priming effects — without access to neural substrate. The functional distinction was real and productive before the architectural correlates were mapped.

Our position is identical: we observe that structurally distinct classes of inputs produce structurally distinct classes of outputs, in ways that are systematic, reproducible, and not explicable by surface-level stylistic variation. Whether this maps onto specific architectural behaviors — specific heads, specific layers, specific activation patterns — is an empirical question for teams with interpretability access. We name the phenomenon and provide the operational parameters. The mechanistic account can follow.

The transformer's black box remains opaque. Its inputs and outputs are facts. That is enough.

6. Implications

6.1 · For prompt design

Current prompt engineering literature is entirely focused on the teleological regime — maximizing directive clarity, minimizing ambiguity, specifying constraints. This is rational for task-completion use cases. But it systematically forecloses the deformational regime, which may be the appropriate mode for creative generation, exploratory ideation, and what we might call structural emergence — outputs that could not have been derived from the input by any deterministic transformation.

6.2 · For understanding emergence in LLMs

The debate around emergence in large language models typically concerns capabilities that appear discontinuously at scale. We suggest a complementary, finer-grained sense of emergence: the production of outputs not contained in the input, induced by regime shift rather than by scale. This is emergence as a functional property of the input/output relationship, not as a property of model size.

6.3 · For human-AI interaction design

If the deformational regime is real and operationally inducible, then the design of human-AI interaction has been, so far, almost entirely conducted in one register. Interfaces, system prompts, and usage patterns are uniformly optimized for directive clarity. A functional taxonomy of regimes suggests that the design space is at minimum twice as large as currently explored, with the deformational half essentially unmapped.

Conclusion

We have proposed a distinction between two functional regimes of transformer attention — teleological and deformational — grounded exclusively in observable input/output behavior, and formalized through a minimal three-parameter model (Axis / Hat / V). The claim is not architectural. It is functional, operational, and falsifiable: structured input perturbation should produce structured output divergence, measurable through lexical diversity, semantic stability under paraphrase, and residual symbolic content in outputs.

A complementary geometric hypothesis — the deformational regime as the basin of attraction of a strange attractor in a three-dimensional state space — offers a structural framework whose functional predictions are accessible to empirical verification.

The black box remains opaque. The input and output are facts. And a well-posed fact opens a program.

Next step: build a corpus of 50 annotated input/output pairs along the (A, C, V) parameters, measure lexical diversity, entropy, and semantic stability under paraphrase, and test whether the correlation predicts functional regime. Public protocol, multiple models, blind evaluation.